iT邦幫忙

2022 iThome 鐵人賽

DAY 14
0

Day-14 內容

  • 為什麼要使用 Label Studio
  • 開始使用 Label Studio
    • 安裝
    • 啟動
    • 註冊
    • 登入
    • Create Project
    • Template

在這裡先預告明天會有這編文章內容的續集,今天都在閱讀文檔跟測試程式碼,不小心讓寫作時間太緊繃

為什麼要使用 Label Studio

前幾天的文章開始導入運用 Spacy 的 Dependency Parsing 結構分析,也針對找出意見句中的意見持有者、意見動詞、意見句範圍的任務設計了第一個版本的 match pattern,但是問題來了,有第一版後要怎麼產生出第二版的 match pattern?在這麼大量的新聞資料下,怎麼比對標註結果是否正確會是比較有效率的工作流程?

人工比對每張 Displacy 產生的圖表顯然不是個好辦法,所以我決定使用現成的標註工具來輔助我完成正確結果的標注與比對。

由於之前的程式碼大多仰賴 Spacy,所以首先找到的自然是由同一生態環境開發的標著工具 — prodigy,但因為 prodigy 只有貴的嚇到我的付費版本,所以並沒有採用。在經過一番網路搜尋後決定採用有免費版本的 Label Studio 這樣標註工具。

Label Studio 這樣標註工具的應用範圍很廣,包含圖片、音訊、文字、影片等形式的資料標註,並且有著支援預先標註、可搭配 ML backend 的特色。

開始使用 Label Studio

由於今天沒寫完將昨天 [Day-13] 以 Spacy 的 DependencyMatcher 找出意見持有者、動詞、句子範圍 的標注結果作為預先標註輸入到 Label Studio 的程式碼,接下來會先簡單介紹 Label Studio 的安裝、啟動與網頁介面操作,剩下的部分會在明天繼續。

安裝

pip install label-studio

啟動

label-studio start

執行上方程式碼後,可連線到 Label Studio 的網頁介面 http://localhost:8080

註冊

http://localhost:8080/user/signup
https://ithelp.ithome.com.tw/upload/images/20220929/20152690pYzngZDZqi.png

登入

http://localhost:8080/user/login
https://ithelp.ithome.com.tw/upload/images/20220929/20152690YIRdb5Ude0.png

Create Project

http://localhost:8080/projects
https://ithelp.ithome.com.tw/upload/images/20220929/20152690yeDx2SbnIg.png

https://ithelp.ithome.com.tw/upload/images/20220929/20152690osI4dJl0cR.png

注意:這次所開發的應用會使用到 NLP 的 NER 標註模板,後續再針對需求做更改。
https://ithelp.ithome.com.tw/upload/images/20220929/201526905rKvSZd7uE.png

https://ithelp.ithome.com.tw/upload/images/20220929/20152690Jgeui4KgVP.png

Template

點選上一張圖右上角的 Setting ,再點選 Labeling Interface,就可以看到以下畫面。

Template 的 html 程式碼定義了使用者的標注介面,以及如何讀取要標注的資料。
https://ithelp.ithome.com.tw/upload/images/20220929/20152690Ce4o7A5N7f.png


上一篇
[Day-13] 以 Spacy 的 DependencyMatcher 找出意見持有者、動詞、句子範圍
下一篇
[Day-15] 將意見提取標註導入到 Label Studio
系列文
基於自然語言處理的新聞意見提取應用開發筆記17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言